我们研究了重整化组(RG)和深神经网络之间的类比,其中随后的神经元层类似于沿RG的连续步骤。特别地,我们通过在抽取RG下明确计算在DIMIMATION RG下的一个和二维insing模型中的相对熵或kullback-leibler发散,以及作为深度的函数的前馈神经网络中的相对熵或kullback-leibler发散。我们观察到单调增加到参数依赖性渐近值的定性相同的行为。在量子场理论方面,单调增加证实了相对熵和C定理之间的连接。对于神经网络,渐近行为可能对机器学习中的各种信息最大化方法以及解开紧凑性和概括性具有影响。此外,虽然我们考虑的二维误操作模型和随机神经网络都表现出非差异临界点,但是对任何系统的相位结构的相对熵看起来不敏感。从这个意义上讲,需要更精细的探针以充分阐明这些模型中的信息流。
translated by 谷歌翻译
We describe a Physics-Informed Neural Network (PINN) that simulates the flow induced by the astronomical tide in a synthetic port channel, with dimensions based on the Santos - S\~ao Vicente - Bertioga Estuarine System. PINN models aim to combine the knowledge of physical systems and data-driven machine learning models. This is done by training a neural network to minimize the residuals of the governing equations in sample points. In this work, our flow is governed by the Navier-Stokes equations with some approximations. There are two main novelties in this paper. First, we design our model to assume that the flow is periodic in time, which is not feasible in conventional simulation methods. Second, we evaluate the benefit of resampling the function evaluation points during training, which has a near zero computational cost and has been verified to improve the final model, especially for small batch sizes. Finally, we discuss some limitations of the approximations used in the Navier-Stokes equations regarding the modeling of turbulence and how it interacts with PINNs.
translated by 谷歌翻译
Topological data analysis (TDA) is a branch of computational mathematics, bridging algebraic topology and data science, that provides compact, noise-robust representations of complex structures. Deep neural networks (DNNs) learn millions of parameters associated with a series of transformations defined by the model architecture, resulting in high-dimensional, difficult-to-interpret internal representations of input data. As DNNs become more ubiquitous across multiple sectors of our society, there is increasing recognition that mathematical methods are needed to aid analysts, researchers, and practitioners in understanding and interpreting how these models' internal representations relate to the final classification. In this paper, we apply cutting edge techniques from TDA with the goal of gaining insight into the interpretability of convolutional neural networks used for image classification. We use two common TDA approaches to explore several methods for modeling hidden-layer activations as high-dimensional point clouds, and provide experimental evidence that these point clouds capture valuable structural information about the model's process. First, we demonstrate that a distance metric based on persistent homology can be used to quantify meaningful differences between layers, and we discuss these distances in the broader context of existing representational similarity metrics for neural network interpretability. Second, we show that a mapper graph can provide semantic insight into how these models organize hierarchical class knowledge at each layer. These observations demonstrate that TDA is a useful tool to help deep learning practitioners unlock the hidden structures of their models.
translated by 谷歌翻译
在过去的几十年中,面部识别(FR)在计算机视觉和模式识别社会中进行了积极研究。最近,由于深度学习的进步,FR技术在大多数基准数据集中都显示出高性能。但是,当将FR算法应用于现实世界的情况时,该性能仍然不令人满意。这主要归因于训练和测试集之间的不匹配。在此类不匹配中,训练和测试面之间的面部不对对准是阻碍成功的FR的因素之一。为了解决这一限制,我们提出了一个脸型引导的深度特征对齐框架,以使fr稳健地对脸错位。基于面部形状的先验(例如,面部关键点),我们通过引入对齐方式和未对准的面部图像之间的对齐过程,即像素和特征对齐方式来训练所提出的深网。通过像从面部图像和面部形状提取的聚合特征解码的像素对齐过程,我们添加了辅助任务以重建良好的面部图像。由于汇总功能通过特征对齐过程链接到面部功能提取网络作为指南,因此我们将强大的面部功能训练到面部未对准。即使在训练阶段需要面部形状估计,通常在传统的FR管道中纳入的额外面部对齐过程在测试阶段不一定需要。通过比较实验,我们验证了提出的方法与FR数据集的面部未对准的有效性。
translated by 谷歌翻译
唇读旨在仅基于唇部运动来预测语音。当它专注于视觉信息以建模语音时,其性能本质上对个人唇部外观和动作敏感。这使得唇读模型由于训练和测试条件之间的不匹配而将其应用于看不见的说话者时显示出降级的性能。演讲者的适应技术旨在减少火车和测试扬声器之间的不匹配,从而指导训练有素的模型,以专注于对语音内容进行建模而不由说话者变化介入。与数十年来基于音频的语音识别所做的努力相反,扬声器适应方法在唇部阅读中尚未得到很好的研究。在本文中,为了纠正看不见的扬声器的唇读模型的性能降解,我们提出了一种扬声器自适应的唇部阅读方法,即用户依赖用户。依赖用户的填充是一种特定于扬声器的输入,可以参与预训练的唇读模型的视觉特征提取阶段。因此,可以在编码视觉功能期间考虑不同扬声器的唇外观和动作信息,适合单个扬声器。此外,所提出的方法不需要1)任何其他层,2)修改预训练模型的学习权重,以及3)预训练期间使用的火车数据的扬声器标签。它只能以受监督或无监督的方式仅学习用户依赖的填充,直接适应了看不见的说话者。最后,为了减轻公共唇阅读数据库中的扬声器信息不足,我们将众所周知的视听数据库的扬声器标记为LRW,并设计出一种名为LRW-ID的不可见语的唇lip阅读方案。
translated by 谷歌翻译
本文着重于设计一种噪声端到端音频语音识别(AVSR)系统。为此,我们提出了视觉上下文驱动的音频功能增强模块(V-Cafe),以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡,即视觉上下文,并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模,可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖,从而增强了音频功能。增强的音频功能与视觉特征融合在一起,并将其带入由构象异构体和变压器组成的编码器模型,以进行语音识别。我们显示了带有V-fafe的端到端AVSR,可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。
translated by 谷歌翻译
研究人员通常会采用数值方法来理解和预测海洋动力学,这是掌握环境现象的关键任务。在地形图很复杂,有关基础过程的知识不完整或应用程序至关重要的情况下,此类方法可能不适合。另一方面,如果观察到海洋动力学,则可以通过最近的机器学习方法来利用它们。在本文中,我们描述了一种数据驱动的方法,可以预测环境变量,例如巴西东南海岸的Santos-Sao Vicente-Bertioga estuarine系统的当前速度和海面高度。我们的模型通过连接最新的序列模型(LSTM和Transformers)以及关系模型(图神经网络)来利用时间和空间归纳偏见,以学习时间特征和空间特征,观察站点之间共享的关系。我们将结果与桑托斯运营预测系统(SOFS)进行比较。实验表明,我们的模型可以实现更好的结果,同时保持灵活性和很少的领域知识依赖性。
translated by 谷歌翻译
这项工作的目的是从无声说话的脸部视频中重建演讲。最近的研究表明,来自无声说话面部视频的综合语音表现令人印象深刻。但是,他们尚未明确考虑不同扬声器的不同身份特征,这些特征在视频到语音综合中构成了挑战,这对于不可见的扬声器设置变得更加至关重要。与以前的方法不同,我们的方法是将语音内容和外观风格与给定的无声说话的面部视频分开。通过指导模型独立专注于建模这两个表示形式,即使给出了看不见主题的输入视频,我们也可以从模型中获得高清晰度的语音。为此,我们介绍了语音视觉选择模块,该模块将语音内容和扬声器身份与输入视频的视觉特征分开。分散的表示形式通过基于VISAGE风格的合成器共同纳入综合语音,该合成器通过在维护语音内容的同时涂上VISAGE风格来产生语音。因此,提议的框架带来了合成语音包含正确内容的优势,即使给出了看不见的主题的无声说话的脸部视频。我们验证了在网格,TCD-TIMIT志愿者和LRW数据集上提出的框架的有效性。可以在补充材料中听到综合语音。
translated by 谷歌翻译
由于服务器客户的通信和设备计算的瓶颈,大多数研究联合学习的研究都集中在小型模型上。在这项工作中,我们利用各种技术来缓解这些瓶颈,以在联合学习的跨设备中训练更大的语言模型。借助部分模型培训,量化,有效的转移学习和沟通效率优化器的系统应用,我们能够培训$ 21 $ M的参数变压器和20.2美元的参数构象异构体,这些构象异构体与类似大小相同或更好的困惑LSTM具有$ \ sim10 \ times $ $较小的客户到服务器通信成本,比文献中常见的较小的LSTMS $ 11 \%$ $ $ $。
translated by 谷歌翻译
我们研究了在通信约束下的分布式平均值估计和优化问题。我们提出了一个相关的量化协议,该协议的误差保证中的主项取决于数据点的平均偏差,而不仅仅是它们的绝对范围。该设计不需要关于数据集的集中属性的任何先验知识,这是在以前的工作中获得这种依赖所必需的。我们表明,在分布式优化算法中应用提出的协议作为子规则会导致更好的收敛速率。我们还在轻度假设下证明了我们的方案的最佳性。实验结果表明,我们提出的算法在各种任务方面优于现有的平均估计协议。
translated by 谷歌翻译